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基于 干 人 基因 组 谱系 数据 的 拷贝 数 变 异 识别 与 分 析 
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摘要 :拷贝 数 变异 (copy number variation, CNV) 是 基因 组 结构 变异 中 的 一 个 重要 类 型 , 它 在 人 类 很 多 复杂 疾病 的 发 生 和 发 展 过 
程 中 扮演 着 重要 角色 。 当 前 CNV 的 识别 研究 ,主要 集中 在 单一 样本 相对 于 参考 序列 的 CNV 识 别 ,以 及 针对 成 对 样本 的 CNV 识 
别 。 然 而 ,这 种 单纯 基于 个 体 水 平 的 CNV 分 析 , 只 能 局 限于 个 体 之 间 而 无 法 进行 亲本 到 子 代 的 遗传 学 分 析 。 本 文 基于 千 人 基 
因 组 计划 中 三 样本 父 - 母 - 子 代 的 家 系数 据 , 寻 找 子 代 相 对 于 父 . 母 的 变异 区 域 ,不 仅 识 别 出 子 女 继承 自 父 母 的 CNYV ,并 通过 分 层 
聚 类 分 析 推 断 出 这 些 CNYV 的 生成 方式 ,同时 还 检测 出 少量 疑似 子 代 相对 于 父母 的 纯 合 CNV 变异 。 
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Detection and analysis of copy number variation from 1000 Genomes trio data 
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Abstract: Copy number variation (CNV) is an important type of genomic structural variation and plays a crucial role in 


genomic disorders imposed by diseases. Most of the current bioinformatic researches focus on developing algorithms and 
tools for detecting CNVs from single or paired datasets, but the analysis of such CNVs is not sufficient from a family-based 
genetic point of view. We performed a trio-sample family based parents-offspring CNV analysis using the 1000G data. We 


found a number of CNVs that the offsprings inherited from their parents and inferred through hierarchical analysis how they 
were generated. In addition, we also discovered several de novo CNV candidates. 
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近 十 几 年 来 ,高 通 量 测序 技术 的 快速 发 展 , 极 大 地 
推动 了 人 们 对 各 个 物种 特别 是 人 类 基因 组 序列 的 深入 
了 解 。 在 对 基因 的 研究 过 程 中 ,基因 组 上 的 结构 变异 在 
进化 与 自然 变异 中 的 有 着重 要 意义 ,其 中 拷贝 数 变 异 
(CNV) 由 于 在 人 类 的 某 些 重大 疾病 中 扮演 重要 角色 受 
到 研究 者 们 的 重视 忠 。 因 此 ,对 识别 CNV 的 策略 和 方 
法 的 研究 相对 于 检测 其 他 类 型 的 结构 变异 也 更 加 完 
善 ””。CNV 的 识别 也 已 从 最 初 基于 aCHG 芯 片 的 粗放 
式 比 较 基 因 组 杂交 技术 ,发 展 为 当前 主流 的 基于 测序 数 
据 序列 覆盖 度 的 统计 分 析 检 测 技术 。 

当前 对 CNV 识 别 的 研究 主要 集中 于 对 单一 个 体 相 
对 于 参考 序列 的 CNV 识别 和 对 两 样本 相对 CNV 的 识 
别 。 随 着 高 通 量 测序 技术 的 进步 测序 成 本 和 生物 信息 
学 分 析 成 本 的 下 降 ,基于 家 系 的 三 样本 CNV 识别 成 为 
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可 能 旦 需求 越 来 越 大 。 相 对 于 传统 且 成 熟 的 配对 数据 
CNV 分 析 , 基 于 家 系 CNV 分 析 的 优点 在 于 可 以 同时 得 
到 一 个 家 系 中 子女 相对 于 其 父母 的 新 生 CNV 变异 (de 
novo CNV) 和 继承 自 父 母 的 变异 (inherited CNV) ,而 目 
前 基于 家 系 的 CNV 分 析 无 论 是 识别 工具 还 是 案例 分 析 
都 少 有 研究 。 


1 材料 和 方法 
1.1 家 系数 据 的 获取 及 比 对 

用 于 分 析 的 家 系 基因 组 数据 为 来 自 千 人 基因 组 计 
划 (http://www.1000genomes.org) 的 样本 NA12878( 母 
亲 ) .NA12877( 父 亲 ) 及 NA12880( 女 儿 )。3 个 样本 的 
数据 均 为 使 用 HiSeq® 2000 测 序 仪 测 得 50X 履 盖 度 的 
高 通 量 测序 数据 。 在 得 到 样本 的 FASTQ 格 式 Pair-End 
序列 后 ,采用 BWA-0.7.5ap4 设 bwtsw 人 参数 进行 比 对 。 
1.2 基于 家 系数 据 的 CNV 识别 

基于 BWA 序列 比 对 得 到 NA12878、NA2877 及 
NA12880 的 SAM 文 件 之 后 ,根据 其 中 双 末 端 测序 短 序 
列 (read pairs) 的 映射 位 置 SAM FLAG 值 以 及 粗 粒 化 
处 理 后 的 CIGAR 值 , 按 染色 体 选取 其 中 完全 映射 到 参 
考 序列 且 两 端 映射 方 向 正常 的 read pairs 计算 步 长 为 
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100 bp 的 滑 窗 覆盖 度 (sliding read depth)。 对 于 每 个 染 
色 体 上 三 个 样本 的 滑 窗 履 盖 度 序列 ,考虑 到 其 中 可 能 的 
由 于 测序 不 均匀 以 及 比 对 软件 的 错误 比 对 造成 的 影响 ， 
首先 采用 基于 haar 变换 基 的 小 波 变换 (wavelet 
transformation) 对 请 窗 履 善 度 序 列 进 行 降 噪 处 理 。 基 于 
三 样本 降 品 后 的 滑 窗 和 覆盖 度 序列 ,根据 修正 后 的 区 域 滑 
窗 reads 数 目的 水 平 变化 量 得 到 可 能 的 CNV 候选 。 针 
对 这 些 候选 CNV, 首 先 采 用 非 参 数 秩 和 检验 (mann 
whitney u test) 判 断 候选 CNV 区 域 的 覆盖 度 相 对 两 侧 
(flanking regions) 水 平 变 化 的 显著 程度 。 考 虑 到 此 时 
涉及 大 量 CNV 候选 覆盖 度 变化 的 检验 ,为 了 从 整体 上 
控制 每 个 染色 体 上 CNV 识别 的 第 一 类 错误 概率 ,在 所 
有 CNYV 候选 的 非 参 数 秩 和 检验 结果 基础 上 ,采用 
Bonferroni 多 重 检验 进行 结果 修正 ,从 而 确保 对 每 个 染 
色 体 而 言 ,其 所 有 检验 结果 显著 的 CNV 的 整体 第 一 类 
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错误 概率 (family-wise error rate) 得 到 有 效 控制 。 


2 结果 与 分 析 
2.1 家 系数 据 CNV 的 聚 类 分 析 及 成 因 解 释 
在 得 到 家 系数 据 的 的 CNV 后 ,为 了 初步 了 解 这 些 
CNV 的 形成 , 首先 对 每 个 家 系 CNV 根 据 家 庭 中 得 三 个 
样本 CNV 区 域 测 序 覆 盖 度 相对 于 全 基因 组 平均 履 善 度 
的 得 失 情况 (gain and loss ) 进 行 标准 化 ,得 到 衡量 覆盖 
度 得 失 的 三 维 取 值 连续 区 间 的 回 量 ,分别 对 应 样本 
NA12878、NA12877、NA12880 在 该 CNV 区 域 的 相对 
盖 度 变化 情况 。 在 得 到 基于 所 有 家 系 CNYV 的 相对 禾 
盖 度 变化 向 量 构 成 的 矩阵 后 ,通过 对 其 进行 使 用 LIi 个 
体 距 离 及 完全 组 间距 离 的 分 层 聚 类 分 析 对 所 有 CNV 唆 
类 ,结果 见 图 1。 


1 1 | 1 1 1 1 1 1 有 1 


图 1 家 系 CNV 的 聚 类 分 析 及 聚 类 各 组 中 CNYV 区 域 家 系 三 样本 相对 覆盖 度 分 布 箱 线 图 


Fig.l Hierarchical clustering of familial CNVs and related boxplot of normalized read depth of CNV regions for 


each cluster. In the upper subfigure, L1 distance-based hierarchical clustering analysis with complete linkage was 


performed on the normalized read depth of family members. Ten groups were generated by separating the 
clustering dendrogram at 0.75 with related heatmap of normalized family read depths. The lower subfigure 


shows boxplots of the distribution of normalized read depth within each group. 


以 组 间距 离 为 0.75 为 分 界线 ,将 所 有 组 间距 离 小 
于 1 的 聚 类 分 支 视 为 1 类, 聚 类 结果 中 的 CNV 便 被 分 成 
10 组 ,并 按照 聚 类 结果 中 的 顺序 从 左 到 右 依次 标记 为 
1-10 组 。 通 过 热 图 以 及 各 组 内 CNV 区 域 3 个 样本 相对 
覆盖 度 变化 的 箱 线 图 可 以 看 到 ,10 个 组 中 CNYV 在 父 
(NA12877) 、 母 (NA12878) 子女 (NA12880) 这 3 个 样 
本 相对 覆盖 度 变 化 的 分 布 上 都 分 别 具 有 明显 的 特征 。 
对 每 个 家 系 CNV 在 一 个 样本 上 如 果 其 CNV 区 域 的 相 


对 履 盖 度 变 化 是 1, 即 该 样本 上 CNV 区 域 的 覆盖 度 与 基 
因 组 平均 覆盖 度 持平 , 则 认为 该 样本 CNV 区 域 的 基因 
型 是 纯 合 的 AA 型 。 如 果 某 样本 上 CNV 区 域 的 相对 覆 
羡 度 变化 是 0.5, 即 该 样本 上 CNYV 区 域 的 覆盖 度 接 近 基 
因 组 平均 覆盖 度 的 一 半 , 则 认为 该 样本 CNV 区域 的 基 
因 型 是 杂 合 的 Aa 型 。 类 似 地 , 若 某 样 本 上 CNV 区 域 的 
相对 覆盖 度 变化 接近 0, 亦 即 该 样本 在 CNV 区 域 几乎 没 
有 reads 履 盖 , 则 推 关 该 样本 在 CNV 区 域 的 基因 型 是 纯 
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合 的 aa 型 。 根 据 遗 传 学 中 等 位 基因 的 概念 ,可 以 以 此 通 
过 不 同 的 变异 形成 方式 解释 各 个 组 的 家 系 CNV。 

对 于 第 1 组 ( 聚 类 结果 标记 为 深 红色 ) 中 的 家 系 
CNV, 由 图 1 中 的 热 图 和 箱 线 图 可 知 , 该 组 中 家 系 CNV 
的 平均 基因 型 为 父 (INA12877)AA 型 , 母 (NA12878)aa 
型 ,子女 (NA12880) 继 承 为 Aa 型 。 同 理 ,第 2 组 中 的 家 


表 1 10 类 家 系 CNV 汇 总 
Tab.1 Summary of the 10 groups of familial CNVs 


系 CNV 的 形成 为 父 (NA12877)Aa 型 , 母 (NA12878)aa 
型 ,子女 继承 为 Aa 型 。 类 似 地 ,其 他 8 组 家 系 CNV 也 可 
以 根据 热 图 和 箱 线 图 中 在 父母 .子女 三 样本 上 相对 覆 
盖 度 变化 结合 等 位 基因 的 概念 解释 子女 CNV 的 形成 ， 
见 表 1。 


Group ID Est.Allele (NA12878) Est.Allele (NA12877) Est.Allele (NA12880) Counts 
1 aa AA Aa 27 
2 aa Aa Aa 20 
3 Aa AA AA 48 
4 Aa AA Aa 134 
5 aa Aa aa 54 
6 Aa aa aa 9 
7 Aa Aa aa 23 
8 AA Aa AA 43 
9 AA Aa Aa 37 
10 AA aa Aa 38 


2.2 家 系数 据 继 承 CNV 的 不 同 生成 方式 的 推断 及 示例 

为 了 更 为 直观 地 展示 每 一 组 家 系 CNYV 的 独特 特 
征 ,本文 从 每 组 中 各 选取 有 代表 性 的 家 系 CNV 实例 。 
通过 直接 将 母 (NA12878) 、 父 (NA12877) 、 子 女 
(NA12880)3 个 样本 在 各 组 代表 性 的 CNV 区 域 附 近 实 
际 reads 覆 盖 度 序列 的 变化 情况 通过 红 . 蓝 . 黑 三 色 分 别 
标注 , 绘 成 折线 图 直观 地 展示 CNV 区 域内 父母 .子女 3 
个 样本 的 reads 履 羡 度 相对 于 两 侧 未 变异 区 域 的 特点 与 
变化 。 值 得 注意 的 是 , 聚 类 结果 中 的 第 8 组 和 第 10 组 。 
从 箱 线 图 和 热 图 中 可 以 看 出 ,第 10 组 以 母 AA 型 . 父 aa 
型 子女 Aa 型 为 主 ,但 由 于 该 类 CNYV 与 母 Aa 型 父 aa 
型 .子女 Aa 型 的 聚 类 距离 非常 近 ,后 者 由 于 数量 较 少 被 
并 入 第 10 组 CNV 中 。 同 样 的 ,第 8 组 以 父 Aa 型 母 AA 
型 子女 AA 型 为 主 ,但 由 于 该 类 CNV 与 父 Aa 型 母 Aa 
型 子女 AA 型 的 聚 类 距离 非常 近 , 后 者 同样 因数 量 较 
少 被 并 人 第 8 组 CNV 中 。 因 此 在 列举 这 两 组 的 代表 性 
CNV 时 ,也 增 列 被 并 入 8、10 组 的 这 两 种 CNV ,结果 见 
表 2。 
2.3 子 代 中 纯 合 的 家 系 CNV 及 其 重要 性 

在 前 述 不 同 生成 模式 的 家 系 继承 继承 式 CNV 中 ， 
注意 到 其 中 第 5.6 及 7 组 中 后 代 的 基因 型 均 为 aa 型 。 与 
其 他 类 继承 式 家 系 CNV 不 同 ,对 于 子女 为 纯 合 的 aa 型 
的 家 系 CNV ,如 果 在 这 些 CNV 区 域 存在 exon,gene 等 ， 
则 在 子女 的 基因 组 上 则 会 出 现 由 于 缺失 整 段 位 于 CNV 
区 域 的 序列 而 与 父母 中 至 少 一 方 存在 由 缺少 相应 exon 
或 gene 所 导致 的 表达 上 的 差异 。 这 可 能 正 是 这 3 组 
CNV 的 总 数 相对 于 其 他 组 家 系 CNV 数量 偏 少 的 原因 
之 一 。 特 别 是 对 于 聚 类 结果 中 的 第 7 组 中 的 继承 式 家 


系 CNV ,在 CNV 区 域 父 . 母 的 基因 型 都 为 显 性 的 Aa 型 ， 
这 意味 如 果 CNV 区 域 存在 exon 或 gene, 则 子女 在 表达 
上 将 存在 于 父 . 母 均 不 一 致 的 情况 。 因 此 ,对 于 针对 基 
因 组 上 的 结构 变异 特别 是 CNV 对 家 庭 后 代 所 造成 的 病 
理 影 响 的 研究 , 则 第 5.6.7 组 特别 是 第 7 组 中 的 家 系 
CNV 应 该 是 这 些 研 究 的 首要 注意 对 象 ,这 些 家 系 CNV 
对 家 庭 后 代 所 造成 的 表 型 差异 很 有 可 能 远大 于 其 他 
CNV 甚至 其 他 结构 变异 的 影响 。 图 2 中 列举 了 第 7 组 
中 的 所 有 23 个 家 系 CNV 其 变异 区 域 附近 各 家 庭 成 员 
的 真实 序列 覆盖 度 情 况 。 
2.4 疑似 的 新 生 (de novo)CNV 

对 于 基于 三 样本 或 多 子女 样本 的 家 系数 据 CNV 分 
析 , 与 传统 的 配对 (paired datasets)CNV 分析 的 不 同 之 
处 除了 上 述 对 于 家 系 继承 式 CNV 产生 方式 的 分 析 外 ， 
部 分 子女 也 可 能 会 有 少量 相对 于 父母 的 新 生 突变 产生 
的 CNV。 然 而 ,相对 于 继承 得 来 得 家 系 CNV 而 言 , 子 
女 新 生 CNYV 的 识别 更 具 挑战 。 首 先 , 现 有 研究 显示 这 
种 新 生 突变 产生 的 CNV 数量 极 少 ”3 ,并 非 每 一 个 子女 
都 有 ,几乎 没有 可 靠 的 训练 集 来 进行 针对 新 生 CNV 识 
别 的 优化 ;再 者 ,广义 上 讲 ,任何 由 于 突变 产生 而 非 父 、 
母 染色 体 搭配 组 合 产 生 的 相对 于 父 、 母 染色 体 的 差异 都 
属于 子女 新 生变 异 ,然而 由 于 在 识别 CNV 时 无 法 确认 
变异 产生 的 原因 ,因此 在 识别 子女 新 生 CNV 时 ,只 
父母 双方 某 区 段 测 序 履 盖 度 均一 致 是 与 全 基因 组 平均 
履 盖 度 相 当 ,而 子女 的 区 域 覆 盖 度 出 现 显 著 降低 时 ,这 
种 CNV 才 会 被 判定 为 子女 新 生变 异 。 在 NA12878- 
NA12877-NA12880 这 一 三 样本 家 系数 据 中 ,经 过 分 析 
和 筛选 认为 较为 可 信 的 3 个 疑似 子女 新 生 CNV, 在 这 
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Group ID Est CNV Allele Type CNV Examples 
1 aa|AA -> Aa | 
_Chr3:228750-234400 
2 aalAa -> Aa 
chr11:29007100-29013000 
3 AalAA -> AA 
chr1:108402850-108405400 
S22 - 
4 AalAA -> Aa | 
chr13:72807350-72812200 
] 
5 aalAa -> aa 
_ | chr5:90499650-90502050 
6 Aalaa -> aa 
chr2:177265600-177272000 
Gj A AU 2 me ne NO, 
7 AalAa -> aa ea 
chr12:71602300-71604450 
8 AalAa -> AA | 
8 AA|Aa -> AA 
一 一 Chr7:144770350-144775200 
9 AA|Aa -> Aa 
chr4:31447950-31449600 
10 AA|aa -> Aa 
chr17;55687800-55689900 
10 Aalaa -> Aa 
chr20:42271700-42274550 


表 2 各 类 家 系 CNV 示例 


Tab.2 Demonstration of familial CNVs within each group. Format of the second column is 
mother_allele type (NA12878) | father allele type (NA12877)-> offspring allele_ type 


(NA12880). 


些 疑 似 子女 新 生 CNYV 的 发 生 区 域 , 父 (NA12877) . 母 
(NA12878) 双 方 的 测序 覆盖 度 折线 均 与 基因 组 平均 水 
平 相当 ,而 子女 的 测序 覆盖 度 折线 相对 于 父 、 母 则 显著 
下 降 , 倘 若 CNV 区 域 没有 发 生子 女 新 生变 异 , 则 子女 的 
区 域 测序 覆盖 度 应 当 与 父母 类 似 。 


3 讨论 

相对 于 较为 成 熟 的 单一 个 体 及 两 样本 相对 结构 变 
异 的 检测 ,目前 针对 家 系 结构 变异 识别 的 研究 尚 处 于 起 
步 阶 段 ,而 现 有 针对 家 系数 据 的 识别 工具 也 多 集中 于 对 
家 系 SNP(single-nucleotide polymorphism) 的 识别 ,如 
TrioDeNovo™“ 等 。 本 文 构建 了 基于 小 波 变 换 和 非 参数 
统计 检验 的 家 系 CNV 识别 方法 ,同时 基于 
NA12878-NA12877-NA12880 这 一 真实 家 系数 据 , 本 
文 详 述 了 对 子女 继承 式 家 系 CNYV 的 类 型 及 生成 方式 的 
分 析 。 在 子女 继承 式 CNV 的 聚 类 分 析 及 生成 方式 的 推 
斯 中 ,我 们 根据 对 家 系数 据 的 相对 覆盖 度 变化 矩阵 的 分 
类 结果 ,结合 遗传 学 中 等 位 基因 的 概念 可 以 很 好 地 解释 


大 有 


各 个 组 绝 大 多 数 子女 CNV 的 继承 得 来 方式 。 这 种 推断 
并 不 是 对 所 有 的 家 系 CNV 都 准确 .可 靠 。 

在 对 子女 继承 式 家 系 CNV 的 分 析 中 ,我 们 注意 到 
有 小 部 分 家 系 CNV 的 推 斯 存在 一 定 程度 的 侦 差 。 这 主 
要 是 由 于 对 CNV 的 分 组 和 推断 都 是 基于 原始 的 家 系数 
据 中 CNV 区 域 的 测序 覆盖 度 序列 ,使 得 分 析 的 可 靠 性 
直接 依赖 于 CNV 区 域 测序 覆盖 度 的 计算 的 准确 性 。 然 
而 基于 当前 的 测序 及 比 对 技术 ,有 众多 因素 都 会 造成 后 
期 覆盖 度 计算 的 偏差 。 例 如 测序 过 程 中 基因 组 区 域 抽 
样 的 不 均一 性 ,序列 比 对 时 由 于 基因 组 高 重复 度 区 域 等 
的 复杂 性 及 比 对 软件 缺陷 等 造成 的 序列 错误 映射 等 ,都 
会 对 区 域 禾 盖 度 的 计算 造成 系统 性 的 偏差 。 虽 然 大 多 
数 情况 下 ,这 些 偏差 造成 的 影响 较 小 ,相对 于 区 域 覆 盖 
度 的 信号 强度 只 产生 微弱 的 干扰 。 体 现在 前 文 的 分 析 
中 即 图 1 箱 线 图 中 大 多 数组 里 所 体现 的 相对 于 均值 在 
正常 范围 内 的 译 动 ,但 除了 前 文中 提 到 的 由 于 聚 类 距离 
过 近 造 成 的 第 8、10 组 将 两 类 不 同 生成 模式 的 CNV 聚 
在 一 起 外 ,第 4 组 家 系 CNV 在 相对 覆盖 度 向 量 的 三 个 
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chr17:55089700-55092800 


中 r16:19945400-19967550 


chr7:96542950-96546600 


chr9.6728650-673 0100 


图 2 第 7 组 中 所 有 家 系 CNV 区 域 家 庭 成 员 的 实际 序列 覆盖 度 情况 
Fig.2 Read depth of family members near each familial CNVs in group 7. The allele types of the parents (colored 
by blue and red for father and mother, respectively) are both Aa, whereas that of the offspring (black) is aa. 


坐标 上 的 方差 也 显著 且 非 正常 地 高 于 其 他 组 。 这 一 方 
面 是 由 于 第 4 组 CNV 的 数量 多 于 其 他 组 使 得 组 内 的 差 
别 变 大 ,但 本 文 推断 其 主要 原因 应 该 为 在 子女 数据 
(NA12880) 的 CNV 区 域 由 于 测序 不 均一 或 序列 的 错误 
映射 造成 了 区 域 序列 覆 羡 度 系统 性 的 偏 少 。 

除了 由 于 原始 数据 中 区 域 序列 覆盖 度 的 系统 性 偏 
差 造 成 的 影响 外 ,对 覆盖 度 的 标准 化 过 程 也 有 可 能 对 少 
数位 于 高 覆盖 度 区 域 的 家 系 CNV 的 分 析 造 成 影响 。 对 
于 家 系 CNV ,如果 在 父母 .子女 三 个 样本 中 CNV 区 域 
的 原始 序列 覆盖 度 向 量 为 < cy,c,cs >, 则 归 一 化 得 到 相 
对 覆盖 度 变 化 向 量 的 计算 方式 为 


人 Cm 
? ? 
max(cy, Cm Co, Cvs) max(cy, Cm’Co, Ciwvg) 


每 


Co 
max(cy Cm Co Cavg 


其 中 ce 为 基因 组 的 平均 序列 覆盖 度 。 对 于 绝 大 多 
数 家 系 CNV 而 言 , 这 种 计算 方式 简单 有 效 ,但 对 于 本 身 
位 于 高 覆盖 度 区 域 的 家 系 CNYV 而 言 ,就 会 产生 误导 性 
的 偏差 。 例 如 ,一 个 位 于 平均 覆盖 度 2 倍 于 基因 组 平均 
水 平 区域 的 CNV ,如果 在 三 样本 家 系数 据 中 ,父母 一 方 
和 子女 由 于 为 纯 合 (aa 型 ) 而 局 部 覆盖 度 为 0, 另 一 方 由 
于 为 杂 合 (Aa 型 ) 而 局 部 覆盖 度 接近 基因 组 平均 水 平 
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时 ,根据 上 述 归 一 化 方法 , 则 会 将 杂 合 Aa 型 的 父母 错 
误 归 类 为 显 性 纯 合 (AA 型 ) 。 

在 对 家 系 继承 CNV 进行 分 组 及 生成 方式 的 推断 
时 ,我 们 注意 到 了 不 同 组 之 间 CNV 数量 相对 于 孟 德 尔 
遗传 定律 的 反常 。 例 如 生成 方式 对 称 的 第 5 组 和 第 6 
组 ,从 遗传 学 和 概率 上 讲 ,理应 数量 相当 ,但 在 
NA12878-NA12877-NA12880 的 家 系数 据 中 却 出 现 了 
反常 ,其 原因 可 能 在 于 现 有 的 CNV 识别 算法 对 于 不 同 
配对 样本 的 识别 存在 精度 不 一 致 的 现象 。 在 分 别 进行 
子女 相对 于 父 . 母 一 方 的 两 样本 配对 CNV 分 析 时 我 们 
发 现 ,子女 (NA12880) 相 对 于 母 方 (NA12878) 的 CNV 
数量 显著 少 于 相对 于 父 方 (NA12877) 的 CNV 数 量 ,这 
就 导致 在 大 多 数 的 继承 方式 对 称 的 组 如 第 5 组 相对 于 
第 6 组 .第 4 组 相对 于 第 9 组 中 ,子女 与 父 方 (NA12877) 
存在 差异 的 组 中 CNYV 的 数量 要 显著 大 于 子女 与 母 方 
(NA12878) 存 在 差异 的 组 。 我 们 发 现 除了 本 文 方法 之 
外 ,使 用 其 他 的 CNV 识 别 方法 ”以 及 针对 不 同 的 家 
系数 据 , 都 存在 类 似 的 子女 相对 于 父 、 母 CNV 数量 的 差 
异 。 这 些 结果 说 明 现 有 CNV 识 别 方法 在 从 配对 数据 的 
CNV 推广 到 基于 多 样本 的 家 系 CNV 识别 时 ,可 能 存在 
一 定 的 缺陷 而 导致 结果 存在 偏差 ,需要 建立 更 为 全 面 和 
准确 的 基于 谱系 数据 的 CNV 识 别 算法 和 工具 。 
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